#DeepSeek V4
突破!國產晶片完成兆參數模型“後訓練”!
據《南華早報》援引深圳市政府消息,一個由華為技術公司領銜的研究團隊近日聲稱,已使用至少1000顆華為昇騰910C AI晶片組成的叢集,完成了對DeepSeek V4-Pro(1.6兆參數)大語言模型的全參數後訓練。該團隊由華為與深圳環島人工智慧研究院、哈爾濱工業大學(深圳)及深圳巨量資料研究院共同組成。 這一成果標誌著中國本土AI加速器首次在處理訓練類工作負載方面取得實質進展。此前,受美國出口管制限制,中國AI企業在模型訓練環節一直最難脫離輝達硬體。昇騰910C是華為當前的旗艦AI晶片,採用雙die設計,在早期DeepSeek測試中其推理性能約為輝達H100的60%。 所謂的“全參數後訓練”是指在大模型完成海量預訓練(V4-Pro的預訓練語料超過32兆 tokens)之後,通過指令微調、安全對齊和特定任務資料對模型所有權重進行更新的階段。這不同於成本更高、計算量更龐大的預訓練。去年8月曾有報導稱,DeepSeek在R2模型訓練時甚至無法在昇騰晶片上完成一次成功的訓練運行,原因是性能不穩定、片間互聯慢以及華為CANN軟體棧的缺陷,最終只得退回使用輝達GPU進行訓練。今年4月發佈的DeepSeek-V4-Pro是首款從一開始就圍繞昇騰建構的模型。 需要注意的是,深圳方面的聲明未提供任何基準測試資料,未說明此次後訓練耗時多久、與在輝達硬體上執行相同任務相比效率如何,也未給出1000顆叢集的實際利用率。DeepSeek公司本身對此未予置評。
DeepSeek-V4技術報告暗藏的10個神級彩蛋,“煉丹玄學”也被寫進論文
DeepSeek在“省錢”和“省資源”上達到了變態的程度。DeepSeek-V4總算來了。4月24日,DeepSeek官方帳號發佈了一篇名為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代》的文章。文章中正式宣佈,“全新系列模型 DeepSeek-V4 的預覽版本正式上線並同步開源。”同時,還介紹:DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本:發佈後,測評、討論已非常充分,不再贅述。盒飯財經關注到,DeepSeek同步發佈了一篇關於DeepSeek-V4 技術報告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf這份名為《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技術報告,共55頁,從架構、通用基礎設施、預訓練、訓練後等6個部分介紹了V4。而這份高度專業的技術報告中,隱藏了10個有意思的小彩蛋。彩蛋一:“Think Max”模式,絕不允許走捷徑的“壓榨”指令位置:第30頁,Table 3原文為:Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.翻譯過來,大概的意思就是:推理投入度:絕對最大化,不容許任何捷徑。你的思考必須極其徹底,全面拆解問題以觸及根本原因,並針對所有可能的路徑、邊緣案例及對抗性場景,對你的邏輯進行嚴苛的壓力測試。要明確寫出完整的深思過程,記錄每一個中間步驟、考慮過的替代方案以及被否決的假設,確保絕對沒有任何未經審視的預設。這段話是模型開啟 Think Max(極致思考模式)時,後台偷偷塞給大模型的“系統提示詞(System Prompt)”。寫得極具壓迫感,像是一個嚴厲的導師在逼學生榨乾腦力,不準有任何偷懶。DeepSeek為其式設定了一套極為嚴苛的系統提示詞。用詞極具壓迫感,還全部使用了絕對祈使句:“絕對最大化”“不許走捷徑”“必須徹底”“嚴酷地壓力測試”“不放過任何一個假設”。它還顯式地命令模型“禁止走捷徑”,要求記錄每一個被拒絕的假設和中間步驟。通過這種極度嚴厲的工程化Prompt,榨乾大模型在 1M Context(百萬上下文)裡的算力去驗證程式碼和邏輯錯誤。這就像是給模型戴上了“邏輯緊箍咒”,確保在處理複雜邏輯或程式碼時,模型不會因為追求速度而忽略細節。彩蛋二:給硬體廠商的“公開信”:別瞎忙活頻寬了位置:第16頁,Section 3.1原文為:Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.意思是:一旦頻寬達到該閾值,便不再是瓶頸,此時將更多的晶片面積用於進一步提升頻寬,會帶來邊際收益遞減。我們鼓勵未來的硬體設計瞄準這樣的平衡點,而非一味地無條件擴展頻寬。DeepSeek在報告中反客為主,給輝達和華為等硬體廠商開出了“方子”。體面表達了他們在硬體方面的觀點:盲目提升頻寬對現在的AI訓練效率提升有限,建議廠商把晶片面積留給更能提高計算通訊比的地方。彩蛋三:極致效率,1M長度下僅需V3.2的10%快取位置:摘要,Abstract原文:In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.意思是:在百萬級token上下文設定下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需其27%的單token推理FLOPs,以及10%的KV快取。DeepSeek在“省錢”和“省資源”上達到了變態的程度。通過 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)技術,它在處理100萬字的長文字時,佔用的記憶體竟然只有前代版本的十分之一。這意味著未來個人電腦甚至手機運行百萬超長文字分析將成為可能。彩蛋四:坦誠的“煉丹玄學”:知其然不知其所以然位置:第26頁,Section 4.2.3原文為:Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.意思是:儘管目前對其底層機制的全面理論理解仍是一個懸而未決的問題,但我們將其公開分享,以推動社區的進一步探索。在Mitigating Training Instability 緩解訓練不穩定性章節中,DeepSeek團隊分享了兩個解決兆參數模型訓練崩潰的獨門絕技,Anticipatory Routing和SwiGLU Clamping。技術報告中,他們也非常耿直地承認:這種“雖然我不知道原理是啥,但它跑起來確實有用,大家拿去用吧”的坦誠,可以說是AI煉丹界的真實寫照了,非常有開源精神。彩蛋五:“快指令”(Quick Instruction)特供Token位置:第33頁,Table 5<|action|> (判斷是否搜網), <|title|> (生成標題), <|query|> (生成搜尋詞)。為了讓Chatbot響應更快,DeepSeek在模型內部植入了一系列專用Token“暗號”。V4之所以能這麼快,是因為它直接復用了已經算好的長文字 KV Cache(快取)。不用像以前那樣把幾十萬字重新喂給另一個小模型去判斷,從而徹底消除了“冗餘的預填充(redundant prefilling)”,這樣使用者的等待時間就能大幅縮短。彩蛋六:Codeforces全球排名第23位位置:第39頁,Section 5.3.2原文為:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.這句話的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 當前在人類參賽者中位列第23名。這個“彩蛋”極具含金量。在純人類參與的全球頂級程式設計競賽Codeforces排名中,DeepSeek-V4的預估分值(3206分)足以排到全球第23名。這意味著它已經超越了絕大多數頂級程式設計師,進入了人類程式設計智力的最頂端一小撮。彩蛋七:內部“員工大調查”,52%的人已離不開它位置:第44頁,Section 5.4.4原文為:In a survey asking DeepSeek developers and researchers (𝑁= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.翻譯過來是:在一項面向DeepSeek開發者和研究人員的調查(N=85)中,這些受訪者均有在日常工作中使用DeepSeek-V4-Pro進行智能體編碼的經驗。當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好成為他們默認且主要的程式設計模型時,52%給出了肯定回答,39%傾向於肯定,而表示否定的不足9%。DeepSeek非常罕見地公開了公司內部85名頂尖研究員的真實反饋。超過一半的DeepSeek內部核心人員已經將其作為日常首選程式設計工具。這種“吃自己的狗糧”的行為比跑分資料更能說明模型在實際生產中的情況。彩蛋八:內部員工的真實“吐槽”被寫進技術報告位置:第44頁,Section 5.4.4原文:Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.翻譯過來就是:受訪者認為DeepSeek-V4-Pro在大多數任務上都能給出令人滿意的結果,但也指出它存在一些細小的錯誤、對模糊提示的理解偏差,以及偶爾的過度思考。這句話緊挨著上一條“內部員工調查”的彩蛋,DeepSeek選擇把內部員工的吐槽也寫了進去。彩蛋九:親民的“中國特色”評測題位置:第43頁,Figure 13為了展示模型在複雜長文字白領工作中的能力,DeepSeek放出的示例任務非常親民。“寫一份某知名奶茶品牌與北京地鐵的聯名行銷策劃”“UGC傳播與社交裂變設計”,比起國外大模型測寫全英文的莎士比亞詩歌,DeepSeek的評測題真的很懂國內打工人的日常PPT需求。彩蛋十:致謝名單裡的神秘測試Dolly Deng位置:第55頁,附錄 A.2 致謝部分附錄 A.2 致謝(Acknowledgment)部分,除了全體作者外,團隊特別單獨點名感謝了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”翻譯過來就是,我們要感謝 Dolly Deng 及其他測試人員,就DeepSeek-V4系列模型的能力所提出的寶貴建議與反饋。能在這樣一份AI基礎模型技術報告中被單獨拎出來感謝的測試(或外部反饋者),不知道他在V4內測期間提交了怎樣關鍵的Bug或改進建議。 (盒飯財經)
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)